Text copied to clipboard!

Titre

Text copied to clipboard!

Ingénieur Fiabilité de Site

Description

Text copied to clipboard!
Nous recherchons un Ingénieur Fiabilité de Site (Site Reliability Engineer - SRE) passionné et expérimenté pour rejoindre notre équipe technologique dynamique. En tant qu'Ingénieur Fiabilité de Site, vous jouerez un rôle clé dans la conception, la mise en œuvre et la maintenance de systèmes hautement disponibles, évolutifs et performants. Vous travaillerez en étroite collaboration avec les équipes de développement, d'exploitation et de sécurité pour garantir que nos services sont fiables, résilients et répondent aux attentes de nos utilisateurs. Votre mission principale sera de combler le fossé entre le développement logiciel et les opérations informatiques, en automatisant les processus, en surveillant les performances des systèmes et en intervenant rapidement en cas d'incident. Vous serez également chargé d'améliorer continuellement l'infrastructure existante, de mettre en place des outils de surveillance avancés et de participer à la définition des meilleures pratiques en matière de fiabilité. Ce poste exige une solide compréhension des systèmes distribués, des environnements cloud (tels qu'AWS, Azure ou GCP), des outils d'automatisation (comme Terraform, Ansible ou Puppet) et des langages de programmation (Python, Go, Bash, etc.). Une expérience dans la gestion des incidents, l'analyse post-mortem et la culture DevOps est également essentielle. Nous valorisons les candidats capables de travailler de manière autonome, de résoudre des problèmes complexes et de collaborer efficacement avec des équipes multidisciplinaires. Si vous êtes motivé par l'amélioration continue, la qualité du service et l'innovation technologique, ce poste est fait pour vous.

Responsabilités

Text copied to clipboard!
  • Assurer la disponibilité, la performance et la fiabilité des systèmes en production
  • Automatiser les tâches opérationnelles répétitives
  • Mettre en place et maintenir des outils de surveillance et d'alerte
  • Collaborer avec les équipes de développement pour améliorer la résilience des applications
  • Participer à la gestion des incidents et aux analyses post-mortem
  • Optimiser l'infrastructure pour la scalabilité et la sécurité
  • Documenter les procédures et les architectures techniques
  • Contribuer à la culture DevOps et à l'amélioration continue
  • Analyser les performances des systèmes et proposer des améliorations
  • Participer aux astreintes pour assurer la continuité de service

Exigences

Text copied to clipboard!
  • Diplôme en informatique, ingénierie ou domaine connexe
  • Expérience avérée en tant que SRE ou dans un rôle similaire
  • Maîtrise des environnements cloud (AWS, Azure, GCP)
  • Connaissance des outils d'automatisation (Terraform, Ansible, etc.)
  • Compétences en programmation (Python, Go, Bash, etc.)
  • Expérience avec les systèmes Linux/Unix
  • Connaissance des outils de surveillance (Prometheus, Grafana, ELK, etc.)
  • Capacité à gérer les incidents et à effectuer des analyses post-mortem
  • Excellentes compétences en communication et en travail d'équipe
  • Maîtrise du français et de l'anglais technique

Questions potentielles d'entretien

Text copied to clipboard!
  • Quelle est votre expérience avec les environnements cloud ?
  • Quels outils d'automatisation avez-vous utilisés ?
  • Comment gérez-vous les incidents critiques en production ?
  • Avez-vous déjà mis en place une architecture haute disponibilité ?
  • Comment assurez-vous la surveillance proactive des systèmes ?
  • Quelle est votre approche pour améliorer la fiabilité d'une application ?
  • Quels langages de programmation maîtrisez-vous ?
  • Comment collaborez-vous avec les équipes de développement ?
  • Avez-vous de l'expérience avec les conteneurs et Kubernetes ?
  • Comment documentez-vous vos processus techniques ?